Telegram Group & Telegram Channel
🚫 Что делать с пропущенными значениями перед нормализацией или стандартизацией признаков

Пропущенные значения (NaN, пустые ячейки) затрудняют масштабирование данных, потому что статистики вроде среднего, стандартного отклонения или минимума становятся некорректными. Поэтому пропуски нужно обработать до нормализации.

Основные варианты

1️⃣ Импутация (восстановление) пропущенных значений

Простые методы: среднее, медиана, мода.
Продвинутые: KNN, модели на деревьях, многократная импутация (Multiple Imputation).

2️⃣ Удаление строк с пропусками

Допустимо, если доля пропущенных значений очень мала.

3️⃣ Использование моделей, устойчивых к пропускам

Некоторые алгоритмы (например, XGBoost, CatBoost) умеют обрабатывать пропуски без предварительной импутации.

📌 Вывод

Пропуски надо обрабатывать до масштабирования.
Лучший подход — импутация на обучении, затем масштабирование по тем же правилам.
Не смешивайте статистики между train и test — это критично для честной оценки модели.

Библиотека собеса по Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/ds_interview_lib/980
Create:
Last Update:

🚫 Что делать с пропущенными значениями перед нормализацией или стандартизацией признаков

Пропущенные значения (NaN, пустые ячейки) затрудняют масштабирование данных, потому что статистики вроде среднего, стандартного отклонения или минимума становятся некорректными. Поэтому пропуски нужно обработать до нормализации.

Основные варианты

1️⃣ Импутация (восстановление) пропущенных значений

Простые методы: среднее, медиана, мода.
Продвинутые: KNN, модели на деревьях, многократная импутация (Multiple Imputation).

2️⃣ Удаление строк с пропусками

Допустимо, если доля пропущенных значений очень мала.

3️⃣ Использование моделей, устойчивых к пропускам

Некоторые алгоритмы (например, XGBoost, CatBoost) умеют обрабатывать пропуски без предварительной импутации.

📌 Вывод

Пропуски надо обрабатывать до масштабирования.
Лучший подход — импутация на обучении, затем масштабирование по тем же правилам.
Не смешивайте статистики между train и test — это критично для честной оценки модели.

Библиотека собеса по Data Science

BY Библиотека собеса по Data Science | вопросы с собеседований


Warning: Undefined variable $i in /var/www/tg-me/post.php on line 283

Share with your friend now:
tg-me.com/ds_interview_lib/980

View MORE
Open in Telegram


Библиотека собеса по Data Science | вопросы с собеседований Telegram | DID YOU KNOW?

Date: |

A Telegram spokesman declined to comment on the bond issue or the amount of the debt the company has due. The spokesman said Telegram’s equipment and bandwidth costs are growing because it has consistently posted more than 40% year-to-year growth in users.

Spiking bond yields driving sharp losses in tech stocks

A spike in interest rates since the start of the year has accelerated a rotation out of high-growth technology stocks and into value stocks poised to benefit from a reopening of the economy. The Nasdaq has fallen more than 10% over the past month as the Dow has soared to record highs, with a spike in the 10-year US Treasury yield acting as the main catalyst. It recently surged to a cycle high of more than 1.60% after starting the year below 1%. But according to Jim Paulsen, the Leuthold Group's chief investment strategist, rising interest rates do not represent a long-term threat to the stock market. Paulsen expects the 10-year yield to cross 2% by the end of the year. A spike in interest rates and its impact on the stock market depends on the economic backdrop, according to Paulsen. Rising interest rates amid a strengthening economy "may prove no challenge at all for stocks," Paulsen said.

Библиотека собеса по Data Science | вопросы с собеседований from it


Telegram Библиотека собеса по Data Science | вопросы с собеседований
FROM USA